查看原文
其他

哪个蛋白质调控我感兴趣的基因?怎样筛选?基于分析或实验的可行方案V2.1

2017-09-15 小哈 嘉因生物

谁来调控我感兴趣的DNA?100%可行的全面解决方案V2.0

上周发的V2.0,这么快就更新到V2.1了?因为小哈最近更新了一下脑中的ENCODE知识体系,得益于ENCODE的会议视频和小伙伴分享的国内培训班视频,表观遗传小白逆袭之道:从这 19 个视频开始吧!尤其是岳峰老师的两个视频,受益匪浅。


这次主要更新了ENCODE的查询方案。以前ENCODE自己的网站功能不强大,需要去UCSC上检索,而且数据量太少。现在,已经积累到7813套ChIP-seq数据,能从ENCODE网站www.encodeproject.org把100套以内的数据提交给UCSC,进行可视化。如果需要100套以上的数据,还能方便的批量下载。




本文关心的是直接调控,即哪个蛋白结合在我感兴趣的基因上游。研究哪个蛋白质结合某段DNA,介绍三种screen的有效方法:


  • Plan A:基于大量ChIP-seq公共数据挖掘

  • Plan B:motif分析预测

  • Plan C:ATAC-seq结合motif分析




Plan A:基于大量ChIP-seq公共数据


一套ChIP-seq数据只能看一个蛋白质调控哪个靶基因。转录因子调控了谁?100%可行的完整解决方案V2.0。如果有大量ChIP-seq数据,就能看到哪个蛋白质调控某个基因。


目前全世界已发表人和小鼠的2万多套ChIP-seq数据,包含800多个TF,把这些ChIP-seq数据放在一起,就能看到基因组的每个位置都结合了哪些TF。


大量的ChIP-seq数据去哪里找呢?


  1. 收录ChIP-seq数据最全的数据库Cistrome Data Browser,需要一点点linux基础,批量下载和处理Cistrome Data Browser数据;

  2. ChIP实验质量最好的ENCODE项目。


下面介绍这两个数据来源的检索方法:


1. Cistrome Data Browser


Cistrome Data Browser收录了目前已发表的2万多套人和小鼠的ChIP-seq、DNase-seq、ATAC-seq数据。可以单个查看某个转录因子调控的靶基因,详见转录因子调控了谁?



最近开始提供批量下载功能,http://cistrome.org/db/#/,我们就可以从大量的ChIP-seq数据里找到:哪套数据的Factor结合了我感兴趣的DNA区段。



点击右上角的“Batch download”,填写课题组信息,勾选要下载的数据类型


承诺提交的信息正确,不会把下载到的数据交给别人,发表文章的时候引用该论文。输入校验码,点击最下面的按钮,就开始下载了。


用bedtools找出感兴趣的基因附近有结合信号peak的ChIP-seq数据,对应到TF名字,就推测出哪些TF结合了感兴趣的基因。bedtools的用法满天飞,小哈在这里不啰嗦。其实只需要一点点linux基础,纸老虎,不用怕。



2. ENCODE


ENCODE项目进展到今天已经产生了7813套ChIP-seq数据,其中人的5568套,小鼠1086套。检索方法参考表观遗传系列视频17 | Penn State 岳峰:ENCODE & Roadmap workshop(附PPT)。另外,还有平行项目,例如模式生物modENCODE和modERN项目,以后小哈会发帖分享使用心得。




人,除组蛋白以外,转录因子等factor的ChIP-seq数据2191套,包含620个factor。



目前可以最多添加100套数据到UCSC genome browser里面查看某段DNA上的peak分布。


例如,在Biosample type里选择stem cell,一共86套数据



点击Visuallize

选择hg19,数据更全。后面再check一下GRCh38版本的基因组在你关心的区域上是否有更新。


打开后看到所有86套数据都展示出来了,在位置框里输入您想看的区段,或基因名字,例如sox2,然后zoom out 10x看更大的区域。好多小矩形的那行就是call出来的peak,下面紧挨着那行是原始信号强度。用眼睛看哪个factor在sox2 TSS附近有peak,推测该factor对sox2的转录有调控作用。


继续往下滚动页面,还能看到该区域存在哪些TF的motif,详见下文Plan B。


如果不想用眼睛看100套以内的数据,而是要从所有的ChIP-seq数据中找到结合某段DNA的factor,需要批量下载:



下载后的数据处理类似于前面讲的Cistrome Data Browser。


该方法的优点是,找到的TF跟DNA的结合关系是有in vivo实验证据的;缺点是,基因的转录调控有着组织特异性,在这套ChIP-seq数据的细胞类型和处理条件下不结合,不代表你关心的细胞类型或处理条件下也不结合,有可能真就能结合呢!反之亦然。



Plan B:基于motif预测


通过motif预测DNA上可能会有哪些转录因子结合。每个转录因子都有一个DNA结合结构域(DBD),喜欢结合在特定DNA序列上,也就是motif。如果我感兴趣的基因上游DNA有某个TF的motif,那么该TF就有可能结合这段DNA,从而调控下游基因表达。


书接上文Plan A的ENCODE数据检索。向下滚动鼠标,找到Regulation,点击TFBS Conserved,full,refresh


refresh后,那些段竖线就是该区域存在的TF的motif,TF名字在左侧

V$和_之间的就是TF名


点击名字,出现motif信息


该方法的缺点是,就算在DNA序列上找到了TF对应的motif,该TF不一定真的就能in vivo结合这段DNA。不过,这起码提供了一条线索,让你有迹可循,看到了某个感兴趣的TF的motif,就做个ChIP-qPCR验证一下吧!



Plan C:ATAC-seq结合motif分析


调控蛋白所结合的DNA附近会形成open区域,产生DHS。2013年,Howard Y Chang发明了ATAC-seq。详见从第一篇文章开始,讲讲ATAC-seq能干啥?类似于DNase-seq,ATAC-seq能够找出基因组上的open区,根据这段区域上的motif,推测它上面可能结合的TF。ATAC-seq用的细胞数更少,500-50,000个细胞就能做,实验更稳定。有了ATAC-seq的加入,把motif预测出来的候选TF范围缩小到染色质开放区域,结果更准确。



还记得Howard Y Chang吗?美帝国自然NIH资助啥?一文中看到,他凭《lncRNA在癌症中的作用机制》一项拿到$724,705,相当于人民币400多万,该项目已经发表2篇paper,一篇Single cell,一篇CRISPR screen。我们站在大牛肩上,紧跟大牛节奏,就能赶在上升期,抓紧时间轻松发一区;否则,邻居大妈都知道ATAC-seq的时候。。。




您可能还想看:

  1. MACS | 张勇 | ChIP-seq

  2. HOTAIR和XIST | ATAC和ChIRP | Howard Chang | lncRNA

  3. Factorbook | 翁志萍 | ChIP-seq in ENCODE

  4. ENCORE | Yeo lab | eCLIP-seq in ENCODE

  5. RNA转录后调控 | eCLIP、RNA-tracking | Gene Yeo | ALS



想用ChIP-seq、ATAC-seq实验研究感兴趣的基因?想用已发表的ChIP-seq、eCLIP-seq、ChIA-PET、DNA甲基化测序、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)




嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案


电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存